[t:/]$ 지식_

불균형 데이터

2017/09/01

오늘 회의하다가 딱 이 용어가 생각이 안 났다.
Imbalanced Data, 즉 불균형 데이터는 지도학습시 데이터 편중이 있을 때 편중된 데이터에 맞춰서 모델이 핏팅되는 경향을 말한다.

예를 들어 암 분류기라고 쳤을때, 데이터 셋에는 암이 아닌 데이터가 압도적으로 많을 것이다. 이때 언더/오버/SMOTE 샘플링 등을 취한다고 한다.

예전에 보긴 봤었는데.. 문득 기억이 나지 않아서 적어둠.

오늘의 고민은 이렇다.
불량인 데이터만 있다. 불량이 아닌 데이터도 있긴 있는데 이건 사실 불량인 확률도 좀 섞여있다. 이럴때는 데이터를 어떻게 전처리해야 할까?





공유하기













[t:/] is not "technology - root". dawnsea, rss